ИИ012

Глубокое погружение в большие языковые модели

Автономные агенты, RLHF и выравнивание по безопасности

Урок

Урок 8

Преподаватель

ИИ-наставник

Анализировать архитектурные компоненты графических интерфейсов агентов, включая модули планирования, принятия решений и рефлексии в многоагентных системах.
Объяснить механику обучения с подкреплением (RL) и обучения с подкреплением от человека (RLHF), особенно роль моделей вознаграждения и алгоритма PPO в согласовании поведения агента с человеческими ценностями.
Оценить риски безопасности и проблемы надежности автономных агентов, включая ошибки вне распределения данных (OOD), атаки типа «сброс» и внешние отвлекающие факторы.